学 报 2021, Vol. 53, No. 9, 1044-1058 
Acta Psychologica Sinica 


OF 


© 2021 中 国 心理 学 会 
https://doi.org/10.3724/SP.J.1041.2021.01044 


两 种 新 的 多 维 计算 机 化 分 类 测验 终止 规则 


任 A 


陈 平 


(北京 师范 大 学 中 国 基础 教育 质量 监测 协同 创新 中 心 , 北京 100875) 


摘 要 


计算 机 化 分 类 测验 (Computerized Classification Testing, CCT) 由 于 具备 分 类 的 功能 , 目前 在 职业 资格 考试 、 


健康 与 护理 问卷 等 以 分 类 为 目的 的 测验 中 得 到 广泛 应 用 。 作 为 CCT 的 重要 组 成 部 分 , 终止 规则 不 仅 决定 测验 停止 
的 条 件 而 且 直 接 影响 分 类 准确 率 及 测验 效率 。 然 而 , 目前 少 有 研究 对 多 维 CCT (Mulitidimensional CCT, MCCT) 的 
终止 规则 进行 探索 。 针 对 已 有 MCCT 终止 规则 的 不 足 , 提出 两 种 新 的 MCCT 终止 规则 ( 即 基于 马 氏 距离 的 多 维 序 
贯 似 然 比 规则 Mahalanobis-SPRT 和 随机 缩减 的 多 维 广义 似 然 比 规则 M-SCGLR), 并 开展 模拟 研究 在 不 同 实验 条 件 
下 (比如 , 不 同 的 题库 结构 、 能 力 维度 间 相 关 及 分 界 函 数 ) 考 查 它们 的 表现 。 结果 表明 : (1) 在 使 用 补偿 性 分 界 函数 的 
条 件 下 ，Mahalanobis-SPRT 规则 具有 较 高 的 分 类 精度 和 与 同类 方法 相近 的 测验 长 度 ; (2) 在 几乎 所 有 实验 条 件 下 ， 


M-SCGLR 规则 不 仅 在 测验 精度 上 大 幅 优 于 已 有 的 多 维 随机 缩减 规则 ,而且 具 
计算 机 化 分 类 测验 , 终止 规则 ,多维 项 目 反 应 理 i 
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1 引言 


计算 机 化 分 类 测验 (Computerized Classification 
Testing，CCT) 是 一 种 特殊 的 计算 机 化 自 适应 测验 
(Computerized Adaptive Testing, CAT)， 它 能 够 高 效 
地 将 被 试 划分 到 两 个 ( 即 达 标 和 未 达标 ) 或 多 个 ( 比 
如 , 合格、 良好 和 优秀 ) 不 同 的 类 别 中 。CCT 将 计算 
机 作为 测量 媒介 ,使 用 自 适 应 的 选 题 策略 和 终止 规 
则 ,基于 被 试 当 前 的 能 力 估计 值 精准 地 匹配 测试 题 
目 ， 直 到 满足 终止 规则 的 要 求 , 停止 测验 并 提供 对 
被 试 能 力 进 行 分 类 判断 的 结果 。 目 前 , 这 类 测试 已 
被 广泛 应 用 于 职业 资格 考试 (Huebner & Fina, 2015) 
和 健康 与 护理 问卷 (Finkelman et al., 2011; Smits & 
Finkelman，2013)， 其 中 的 健康 与 护理 问卷 可 以 针 
对 某 种 疾病 或 与 护理 计划 直接 相关 的 某 些 阶段 将 
患者 划分 至 有 风险 /无 风险 的 类 别 中 。 尽 管 可 以 将 各 
种 心理 测量 理论 作为 CCT 的 基础 , 但 是 近年 来 大 
多 数 研究 与 应 用 都 将 焦点 集中 在 基于 项 目 反 应 理 
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面 上 项 目 (32071092) 、 中 国 基 础 教育 质量 监 


了 较 短 的 测验 长 度 。 


全， 马 氏 距离 ， 随 机 缩减 


论 (1tem Response Theory, IRT) 的 可 变 长 度 的 CCT 
人 研发 上 (Huebner & Fina, 2015; Li et al., 2020; Wang 
et al., 2020)。 

完整 的 CCT 和 CAT 均 包 括 IRT 模型 、 题 库 、 
选 题 策略 、 能 力 参 数 估计 方法 以 及 终止 规则 五 个 核 
心 组 成 部 分 ( 郭 硕 等 , 2015)。 但 是 两 者 在 测验 目的 
上 并 不 相同 : CAT 的 目的 是 对 被 试 能 力 进行 准确 佑 
计 ( 陈 平 , 2016), 而 CCT 只 需要 输出 对 被 试 的 类 别 
划分 。 这 就 对 测验 的 终止 规则 (也 即 测 验 应 该 如 何 
停止 以 及 如 何 给 出 测验 结果 ) 提 出 不 同 的 要 求 ， 
此 有 必要 对 CCT 的 终止 规则 进行 单独 研究 。 在 可 
变 长 度 的 二 分 类 测验 的 背景 下 ,已 有 的 CCT 终止 
规则 主要 可 以 被 分 为 两 类 : 似 然 比 规则 和 贝 叶 斯 规 
则 。 似 然 比 规则 的 基本 思路 是 通过 事先 规定 不 同类 
别 被 试 的 真实 能 力 分 界 值 , 来 构造 似 然 比 统计 量 并 
进行 假设 检验 ， 从 而 完成 对 被 试 的 分 类 。 最 早 的 似 
然 比 终止 规则 是 Wald (1947) 提 出 的 序 贯 似 然 比 检 
(Sequential Probability Ratio Test, SPRT). Bartroff 
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等 (2008) 则 将 广义 似 然 比 (Generalized Likelihood 
Ratio，GLR) 方 法 应 用 于 变 长 的 CCT 中 , 并 对 GLR 
的 良好 性 质 进 行 证 明 。Thompson (2011) 通 过 模拟 研 
究 发 现 : 相 比 于 SPRT, GLR 方法 能 够 在 维持 分 类 精 
度 的 基础 上 较 大 幅度 地 提高 测验 效率 (或 缩短 测验 
长 度 )。 此 外 , 研究 者 发 现 : 由 于 受制 于 现实 因素 ( 比 
如 疲劳 效应 、 练 习 效 应 )， 往往 不 可 能 要 求 被 试 一 直 
作答 直至 满足 SPRT 的 条 件 。 在 这 种 情况 下 ， 如 果 
结合 随机 缩减 (stochastic curtailmenb 技 术 就 有 可 能 
提高 测验 效率 。 由 此 ，Finkelman (2003，2010) 在 
SPRT 的 基础 上 结合 随机 缩减 技术 , 开发 出 随机 缩 
减 的 SPRT (Stochastically Curtailed SPRT, SCSPRT) 
以 及 有 预测 能 力 的 SPRT (SPRT with Predictive 
Power, PPSPRT)。Huebner 和 Fina (2015) 则 将 随机 
缩减 技术 与 GLR 方法 相 结 合 ,提出 基于 GLR 的 随 
机 缩减 方法 (Stocpnastical1 Curtailed GLR, SCGLR)。 
模拟 研究 的 结果 表明 : 使 用 随机 缩减 的 方法 能 够 提 


高 测验 效率 (Finkelman, 2008; Huebner & Fina, 2015; 


Wang et al., 2020)。 另 一 方面 ， 贝 叶 斯 规则 的 基本 思 
路 则 是 通过 作答 反应 获取 被 试 能 力 的 后 验 分 布 ， 并 
使 用 后 验 分 布 计 算 损失 函数 值 ， 从 而 完成 对 被 试 的 
分 类 。Lewis 和 Shehan (1990) 率 先 引入 先 验 函数 和 
损失 函数 ,并 提出 基于 贝 叶 斯 决策 理论 的 终止 规 
则 。 接 下 来 , 本 文 仅 在 变 长 的 二 分 类 测验 情境 下 关 
注 基 于 似 然 比 规则 的 终止 规则 。 

值得 注意 的 是 ， 上 述 终止 规则 都 建立 在 单 维 
IRT (Unidimensional IRT,，UIRT) 的 基础 上 ， 即 假设 
测验 仅 考 察 被 试 单一 维度 的 能 力 。 但 是 在 心理 或 教 
育 测验 的 实践 中 , 测验 往往 同时 考察 被 试 在 多 个 维 
度 上 的 潜在 特质 ,这 就 与 上 述 的 单 维 性 假设 相 迟 
( 康 春 花 , 辛 涛 , 2010)。 为 解决 这 一 问题 ,基于 多 维 
IRT (Multidimensional IRT,，MIRT) 构 建 多 维 CCT 
(Multidimensional CCT, MCCT) 就 显得 十 分 必要 , 迄 
4, 关于 MCCT 的 研究 较 少 ， 只 有 少数 研究 者 将 特 
定 的 似 然 比 规则 从 单 维 情境 推广 至 多 维 情 境 
(Nydick, 2013)。 在 MCCT 中 , 似 然 比 规则 的 基本 思 
路 与 单 维 情境 的 一 致 ,但 是 能 力 参 数 的 多 维 性 导致 
各 类 别 间 的 能 力 分 界 点 转变 为 能 力 分 界 曲线 (二 维 
情境 下 ) 或 能 力 分 界 曲面 (三 维 及 以 上 情境 下 )。 为 此 ， 
Nydick (2013) 提 出 用 似 然 函数 约束 的 方法 构建 约 
REY SPRT (Constrained SPRT, C-SPRT)、 使 用 空间 
投影 的 方法 构建 投影 的 SPRT (Projected SPRT, 
P-SPRJ) 以 及 在 此 基础 上 开发 随机 缩减 的 多 维 SPRT 
(Multidimensional SCSPRT, M-SCSPRT)。 此 外 , Nydick 


(2013) 还 首先 将 多 维 GLR 方法 (Multidimensional 
GLR, M-GLR)3| A MCCT. 

综 上 , 基于 MIRT 构建 MCCT 终止 规则 能 够 更 
好 地 适应 现实 测验 的 需要 。 本 文 在 总 结 与 分 析 已 有 
MCCT 终 止 规则 的 基础 上 ,提出 两 种 新 的 MCCT 终 
止 规则 : 第 一 种 是 基于 马 氏 距离 的 多 维 序 贯 似 然 比 
2% IEE U (Mahalanobis-SPRT), 具体 思路 是 将 马 氏 
距离 融入 P-SPRT 方法 ; 第 二 种 是 多 维 随机 缩减 的 
GLR #4 W] (Multidimensional SCGLR, M-SCGLR), 
可 以 被 视 为 SCGLR 在 多 维 情境 下 的 推广 。 两 种 新 
终止 规则 相对 于 已 有 规则 的 表现 ,将 通过 模拟 研究 
在 多 种 实验 条 件 下 进行 全 面 评 价 。 

本 文 的 剩余 部 分 将 按 如 下 方式 进行 组 织 : 第 2 
节 首 先 简要 描述 本 文 使 用 的 MIRT 模型 以 及 四 种 已 
有 的 MCCT 终止 规则 ( 即 C-SPRT、P-SPRT、M-GLR 
以 及 M-SCSPRT), 然后 详细 介绍 两 种 新 提出 的 MCCT 
终止 规则 ( 即 Mahalanobis-SPRT 和 M-SCGLR)。 第 
3 节 将 介绍 模拟 研究 设计 ,并 在 第 4 节 展 示人 研究 结果 
与 结论 。 最 后 一 节 进 行 讨论 并 展望 未 来 的 研究 方向 。 
IPN Br 
2.1 MIRT 模型 

本 文 假设 所 有 题目 都 由 多 维 三 参数 逻辑 斯 蒂 
wA (Multidimensional Three-Parameter Logistic 
Model，M3PL) 建 模 。 在 该 模型 中 ,能 力 向 量 为 0; 
的 被 试 i IE WATE AS Mita MA j 的 概率 为 
(Reckase & Mckinley, 1982), 

P,(0,) = Prob(Y, =10,,aj, dj,c)) = 


1? j? jy? 


l=c; 
其 中 ，% 是 取 值 为 0 或 1 的 伯 努 利 随 机 变量 , 
表示 被 试 i 在 题目 i 上 的 二 级 计 分 作答 反应 。0, = 
(01,0;,…,0,) 表示 被 试 i 的 p 维 能 力 向 量 ,7 表示 


HEH. a, = (apaa p)" 为 题目 j 的 p 维 区 分 度 
p 

参数 向 量 ， 有 a70, =Y apb; 标量 d) 是 与 题目 难 
k=1 


度 相关 的 截 距 参 数 , 标量 cj 则 是 题目 的 伪 猜 测 参 
数 。 为 方便 对 模型 参数 的 含义 进行 解释 , Ackerman 
(1994) 定 义 MDISC, = (a5, +47, ++ a?) 作为 题 
H j 的 多 维 区 分 度 (multidimensional discrimination), 


-d; 
oz ,二 一 -一 J RI i H 维 E JE 
定义 MDIFF, MDISC, 作为 题目 j 的 多 维 难度 


(multidimensional difficulty)。 
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1 此 ,被 试 i 对 产道 题目 的 作 管 反 应 Yj = Ya, 
Yao Yy) 的 似 然 函 数 为 ， 


7 
LO|Y)=][R@I12@0 ". 2) 
j=l 
其 中 ，2(0)=1-P(0)， 表 示 被 试 ; 错误 作答 
题目 7 的 概率 。 
2.2 ”已 有 的 MCCT 终止 规则 
2.2.1 ” 似 然 比 思想 与 C-SPRT、P-SPRT 以 及 M-GLR 
规则 
目前 大 多 数 关于 MCCT 的 终止 规则 都 是 基于 
单 维 CCT 的 终止 规则 而 构建 。 一 个 单 维 序 贯 似 然 
比 规则 的 构成 可 以 总 结 为 四 个 步 又: (1) 构 造假 设 检 
验 ; (2) 确 定 不 同等 级 间 的 能 力 阔 值 %m; (3) 在 9 处 给 
定 一 个 5 邻 域 , 即 (@, 一 6,0,+5)= (9,,0,) 。 当 能 力 值 
落 在 该 区 间 时 ， 认 为 未 获得 足够 信息 对 被 试 进行 分 
类 ,因此 该 区 间 也 被 称 为 无 差别 区 间 ; 而 当 能 力 值 
KF 6, 时 认为 被 试 属于 “达标 ”的 类 别 ， 当 能 力 值 小 
于 0 时 认为 被 试 属于 “未 达标 ”的 类 别 ; (4) 构 建 似 然 
比 统 计量 并 确定 拒绝 域 。 在 将 终止 规则 从 CCT 推 
广 到 MCCT 时 , 需要 定义 能 力 分 界 曲 线 或 曲面 才 
能 将 不 同类 别 的 被 试 区 分 开 来 。 由 此 , 单 维 情 境 下 
的 能 力 分 界 点 @ 就 变 为 多 维 空间 中 的 能 力 分 界 曲 
线 或 曲面 gs(O) =0， 其 中 g(0) 为 分 界 函 数 ， 具 体 可 
分 为 补偿 性 的 分 界 函 数 ( 比 如 ，g(0)=0 +O, ) 和 非 
emage, sO 人. 半生) 此 办 
0, £0 >0 
的 一 个 研究 问题 是 如 何 将 分 界 曲线 或 曲面 转化 为 
单 维 情况 下 的 分 界 阔 值 9 。 另 外 ， 即 使 获得 6,， 多 
维 空间 中 的 6 在 不 同方 向 上 可 以 构造 任意 多 个 5 
邻 域 ， 因 此 如 何 选择 2 和 2 是 另 一 个 需要 解决 的 
问题 。C-SPRT、P-SPRT 以 及 M-GLR 分 别 从 三 个 
不 同 的 角度 提供 解决 方案 。 
首先 , 似 然 比 规则 需要 构造 假设 检验 ， 
Ho:0eQ, 
Hi:0eQ, (3) 
Kp, On 表示 属于 “达标 ”类 别 的 被 试 的 能 
空间 ，@, 表示 属于 “未 达标 ”类 别 的 被 试 的 能 力 空 
Bo FÆ, 接受 原 假设 Hy 表示 被 试 属于 “未 达标 ”类 
Sl, 接受 备 择 假设 A, 则 表示 被 试 属于 “达标 ”类 别 。 
(1) C-SPRT 
基于 构造 的 上 述 假设 ，C-SPRT 的 基本 思路 是 
使 用 约束 在 分 界 曲线 或 曲面 上 的 能 力 估计 值 奉 代 
能 力 分 界 点 @， 并 计算 相应 的 9, 和 9, (分 别 对 应 


o, BERSO, 的 下 界 上 的 点 )。 具 体 地 说 ,在 被 试 
i 作答 完 六 道 题目 后 , C-SPRT 方法 首先 将 在 分 界 曲 
线 或 曲面 上 计算 得 到 的 能 力 参数 估计 值 名 作为 能 
力 分 界 点 @ 的 估计 ， 即 
b = arg max[logL(OlY,,)], (4) 
0eQ,o 


FEA, Oy = {0:g(0)=0} 表示 能 力 分 界 曲线 或 
曲面 。 上 式 表示 将 0, EIE log LO | Yp) 取 最 大 值 
的 点 记 为 外 。C-SPRT 方法 然后 在 如 处 g(0)=0 的 
法 向 量 方向 上 构造 6 邻 域 。 记 0; 为 该 方向 的 单位 向 
ft, Mo -8) ,其 中 为 哈密 顿 算 子 ， 表 

Vg(0,) lla 
示 微 分 运算 ,|| :|| 表示 欧 几 里 得 范 数 ， 用 于 衡量 欧 
氏 空 间 内 的 距离 。 于 是 可 得 到 无 差别 区 间 的 上 下 限 
分 别 为 


6, =9) + 05, (5) 
0, = 0, - 505. (6) 
根据 Wald (1947) 提 出 的 似 然 比 检验 构造 似 然 
比 统计 量 , 得 到 


A OK LÔ, |Y7) 
C; = log{LRG, 6)1Y,)] = log - 7) 


L(OilY,,) 
记 第 一 类 和 第 二 类 错误 率 分 别 为 a M, 令 
A=A(a,p)、 B=B(a,f) . C=log(A)、 C, =log(B) 


C, +C, > X =} yZ A 
且 Ci = 一 。 在 分 类 测验 的 背景 下 ,通常 取 
Aa, B) = -和 Ai B(@, B) =F. (Finkelman, 2003). 
=Q a 


te BGK i VER 56 jE, 计算 Cj, ， 并 基于 似 然 
比 检验 规则 给 出 如 下 判断 : 若 
Cy SC, (8) 
则 停止 测验 , WEKEN j, 并 判断 被 试 属于 
“未 达标 ”; 若 


Cp 2G, (9) 
则 停止 测验 , 测验 长 度 为 产 ,并 判断 被 试 属于 
“达标 否则 ， 即 

C; < Cy < Ca (10) 

则 继续 给 被 试 作答 下 一 道 题 。 
Wald-Wolfowitz 定理 表明 : 在 测验 可 以 持续 进 
行 直至 满足 上 述 终止 规则 的 情况 下 ，SPRT 是 具 
同等 检验 力 的 检验 中 所 需 观测 个 数 最 少 的 假设 检 
验 ， 即 最 优 序 贯 检验 (Wald & Wolfowitz, 1948)。 但 
是 在 现实 情境 下 ， 由 于 疲劳 效应 、 练 习 效 应 等 因素 
的 影响 , 不 可 能 要 求 被 斌 一直 作答 直至 满足 不 等 式 
(8) 或 (9)。 因 此 在 单 维 CCT P, 一 般 通 过 事先 设 定 
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最 大 测验 长 度 以 满足 上 述 现实 需要 。 于 是 , 人 研究 
者 在 设计 不 定 长 的 MCCT 终止 规则 时 也 沿用 这 一 
附加 的 强制 结束 条 件 。 这 就 是 说 ,大 达到 最 大 长 度 
J 时 测验 仍 未 结束 ， 则 根据 下 述 准则 对 被 试 进行 强 
制 分 类 : ECS, MEEME, 测验 长 度 为 7， 
并 判断 被 试 属于 “未 达标 ” A Cy > Co ， 则 停止 测 


验 , 测验 长 度 为 ,并 判断 被 试 属于 “达标 ”( 记 该 
准则 为 最 大 测验 长 度 下 似 然 比 检 验 的 判断 准则 )。 

记 被 试 最 终 完成 测验 的 实际 作答 题目 数 为 K， 
分 类 判断 结果 为 D (D=m 表示 被 试 属于 “达标 ”， 
D =n 表示 被 试 属于 “未 达标 ”), 最 大 测验 长 度 为 7， 
则 整个 C-SPRT 的 判断 规则 可 以 概括 如 下 ， 


停止 测验 ,K = j',D=n FJJ, Cy SCR" =J, Cy S Cy} 


停止 测验 ,K = j',D=m E'<, Cy Z Cy Ri’ =J, Cy > Co}. (11) 
继续 测验 否则 


(2) P-SPRT 
P-SPRT 与 C-SPRT 唯一 的 区 别 在 于 它 采 用 不 
同方 法 将 分 界 曲线 或 曲面 转换 为 可 用 于 假设 检验 
的 分 界 点 。 具体 地 说 , P-SPRT 将 基于 当前 作答 得 到 
的 被 试 能 力 估计 值 投 影 至 g(0)=0 所 刻画 的 边界 上 ， 
并 将 投影 视 作 分 界 点 。 在 被 试 作答 完 六 道 题目 后 ， 

对 其 能 力 估计 值 进行 投影 的 表述 如 下 : 
Ô, = argmin || Ô; -0 |h» (12) 

0eQo 


Ep, 6, 表示 被 试 i 的 能 力 估计 值 。 由 于 -jb 
代表 欧 氏 空间 内 的 距离 ， 因此 公式 (12) 表 示 将 @u 上 
与 6, 距离 最 近 的 点 记 为 名 ,也 就 是 将 6 投影 至 @。 
E, 并 将 投影 得 到 的 点 记 为 O。 确 定名 后 , P-SPRT 
也 依照 等 式 (5)、(6) 和 (7) 得 到 Â, AR Cy 。 

(3) M-GLR 

M-GLR 方法 在 构造 似 然 比 统计 量 的 思路 上 与 
P-SPRT 和 C-SPRT 都 不 同 。GLR 统计 量 Cy 是 似 然 
函数 在 不 同类 别 被 试 ( 即 “ 达 标 ” 与 “未 达标 ”) 的 能 力 
空间 中 的 最 大 值 之 比 的 对 数 ， 它 不 同 于 等 式 (7) 需 
要 确定 和信 ,因此 从 理论 上 可 避免“ 多维 情境 下 
要 将 分 界 曲 线 或 曲面 转换 为 分 界 点 ”的 需求 。M-GLR 
统计 量 定义 为 


sup [L(, |Y7 )] 
0 EO, 


sup [ZL(0,|Y;)] l 
00, 


KEP, 0, e 8, 表示 0 是 “达标 ”被 试 的 能 
间 ©,, 中 的 任 一 值 ，0, e ©, 表示 9, 为 “未 达标 ”被 试 
的 能 力 空间 @, 中 的 任 一 值 。 公式 (13) 的 分 子 部 分 即 
为 在 “达标 ”被 试 的 能 力 空间 内 似 然 函数 的 最 大 值 ， 
而 分 母 部 分 即 为 在 “未 达标 ”被 试 的 能 力 空间 内 似 
然 函 数 的 最 大 值 。 由 此 可 以 发 现 ,与 单 维 的 GLR 方 
法 相 比 , M-GLR 只 是 将 Cj 中 求 极 值 的 集合 由 单 维 
的 能 力 区 间 变 为 多 维 能 力 空间 中 的 区 域 ， 其 性 质 并 
没有 变化 。 需 要 说 明 的 是 ,尽管 C-SPRT, P-SPRT 


C, =log (13) 


与 M-GLR 在 构造 统计 量 的 具体 方式 上 存在 差异 ， 
但 都 是 基于 公式 (3) 所 对 应 的 假设 检验 ,而且 仅 依 
赖 构 造 的 似 然 比 统计 量 进行 判断 。 因 此 , 在 得 到 Cj 
( 序 贯 似 然 比 统计 量 或 广义 似 然 比 统计 量 ) 后 ,P-SPRT 
和 M-GLR 的 判断 准则 也 都 通过 与 C, 、C, 或 C0 进 
行 比较 得 到 测验 结果 ， 即 按照 公式 (11) 所 定义 的 规 
则 对 被 试 做 出 分 类 判断 。 
2.2.2 ”随机 缩减 与 M-SCSPRT 规则 

如 前 所 述 , 由 于 最 大 测验 长 度 ,7 的 引入 与 Wald- 
Wolfowitz 定理 的 前 提 假 定 相悖 ， 因 此 在 同等 条 件 
下 , SPRT 不 再 具有 最 大 检验 力 。 这 种 低 效 不 仅 增 大 
测验 长 度 ,而且 导致 测验 时 间 和 题目 曝光 率 的 上 升 。 
因此 , 在 维持 SPRT 分 类 准确 率 的 基础 上 缩短 测验 
长 度 有 助 于 MCCT 的 应 用 。 随 机 缩减 (Finkelman， 
2008; Huebner & Fina, 2015) 正 是 解决 该 问题 的 一 
种 方法 : 即 如 果 被 试 接 下 来 的 作答 反应 在 较 大 概率 
上 不 会 改变 当前 对 被 试 的 分 类 判断 ， 那么 此 时 便 结 
束 测验 是 合理 的 。 

M-SCSPRT 规则 是 一 种 将 随机 缩减 与 C-SPRT 
相 结 合 的 多 维 似 然 比 终止 规则 , 它 在 完整 保留 公式 
(11) 所 定义 判断 准则 的 基础 上 ,对 原本 需要 继续 作 
答 的 被 试 i 再 次 进行 判断 。 具体 地 说 , M-SCSPRT 按 
照 等 式 (4) 至 等 式 (7) 计 算 约束 下 的 似 然 比 统计 量 
Cj， 并 计算 被 试 作答 至 最 大 测验 长 度 时 ,对 被 
试 的 分 类 判断 与 当前 一 致 的 概率 

P(D; = DilCy)， (14) 

其 中 刀 表 示 被 试 作答 完 刀 道 题目 时 ， 对 被 试 
的 预 分 类 ; D) 表示 被 试 作答 完了/ 道 题目 时 ， 对 被 
试 的 最 终 分 类 。 预 分 类 的 判断 准则 与 最 大 测验 长 度 
下 似 然 比 检验 的 判断 准则 一 致 ， 即 
i =n, FCy SCy 


m - (15) 
Dy =m, ACy > Co 


由 公式 (11), 在 2.2.1 节 所 述 的 三 种 似 然 比 检验 
中 , fi <J AC, <Cy <C,， 测 验 将 继续 进行 。 但 
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是 ，M-SCSPRT 方法 在 <J 时 ,对 公式 (11) 进 行 了 如 下 调整 ,而 在 j= J 时 不 变 ， 

停止 测验 ,K = j',D=n {Cy S Cj) 或 {C1 < Cy S C0,P(Dj =n|C,.) 21-4 

停止 测验 ,K = j',D=m {Cy > C,}BYC, > Cyr > Cy, P(O; =m| Cy) 21-6 (16) 


继续 测验 


Kp, 与 6 为 事先 设 定 的 临界 值 。 以 往 的 模 
拟 研究 表明 : “4g 与 都 取 0.05 时 , 能 在 损失 较 小 
测验 分 类 精度 的 前 提 下 大 幅 缩 短 测验 长 度 (Finkelman， 
2008, 2010)。 
2.3 ”两 种 新 的 MCCT 终止 规则 
2.3.1 Mahalanobis-SPRT 

如 公式 (12) 所 述 , P-SPRT 规则 使 用 欧 氏 距离 对 
被 试 能 力 估计 值 进行 空间 投影 ,但 是 , 在 CCT 施 测 
的 初期 阶段 ， 对 被 试 能 力 的 估计 往往 不 够 准确 ， 
P-SPRT 仅 使 用 一 次 估计 的 能 力 结果 6 进行 投影 
能 会 使 久 不 够 稳定 ， 从 而 影响 分 类 结果 (在 高 维 情 
境 下 这 种 影响 可 能 会 尤为 突出 )。 因 此 在 多 维 情境 
中 ,“ 按 欧 氏 距离 对 被 试 能 力 值 进行 投影 ”这 种 做 法 
A ERTE 

本 文 基 于 聚 类 分 析 的 思想 , 提出 基于 马 氏 距离 
的 Mahalanobis-SPRT 规则 ， 以 克服 P-SPRT 的 上 述 
不 足 。 在 测验 初期 ,尽管 单个 被 试 能 力 估计 值 并 不 
准确 , 但 是 如 果 将 多 个 能 力 估计 值 综合 起 来 ,就 可 
以 大 致 描绘 出 被 试 真实 能 力 值 所 处 的 范围 。 具体 地 
说 , 测验 初期 的 能 力 估 计 值 是 在 真 值 附 近 上 下 波动 
的 ， 而 并 非 一 致 地 高 于 或 低 于 真 值 , 所 以 多 个 能 力 
估计 值 的 均值 ,往往 就 更 加 接近 真 值 。 图 1 表示 某 
名 被 试 在 一 个 二 维 测验 过 程 中 ， 其 能力 估计 值 随 作 
答题 目 数量 变化 而 变化 的 情况 。 其 中 ， 蓝 色 的 三 角 
形 点 代表 该 被 试 的 能 力 真 值 , 红色 的 圆 形 点 代表 对 
被 试 能 力 的 估计 值 ， 红色 越 深 表示 得 到 该 能 力 估计 


@ 
0 作答 题 数 
agp : 
=| 20 
Ey 15 
-2 10 
5 
-3 
-4 1 1 L 1 
4 3 2 1 0 1 
A 
Al 1 二 维 情境 下 某 名 被 试 的 能 力 估计 值 随 作 答题 数 的 
变化 图 


否则 


值 时 被 试 作答 的 题目 数量 越 多 。 由 图 1 可 以 看 到 : 
在 被 试 作答 的 题目 数量 较 少 时 , 被 试 的 能 力 估 计 值 
与 真 值 相 差 较 大 。 但 与 此 同时 , 在 两 个 维度 上 , 能 
力 估计 值 都 是 围绕 真 值 上 下 波动 的 。 因 此 ， 在 测验 
初期 ， 多 个 能 力 估计 值 的 均值 就 能 够 对 被 试 能 力 真 
值 进行 比较 准确 的 描述 。 
综 上 ,使 用 分 界 曲线 或 曲面 上 的 点 中 ,到 “已 
得 到 的 多 个 能 力 估 计 值 的 均值 ”的 马 氏 距离 最 近 的 
点 作为 ô, (这 也 正 是 Mahalanobis-SPRT 方法 的 做 法 ) 
比 P-SPRT 中 直接 使 用 分 界 曲线 或 曲面 上 到 b 的 欧 
氏 距 离 最 近 的 点 要 更 合理 。 于 是 , 我 们 可 以 定义 
Mahalanobis-SPRT 规则 下 的 分 界 点 6, ， 即 
ô, maren Gye 2 Nha (17) 


HF, Ilu 代表 马 氏 距离 ， 90,, 是 被 试 ; 作 答 
完 产道 题目 后 得 到 的 产 个 能 力 估 计 值 的 均值 ， 
代表 对 被 试 能 力 真 值 的 近似 刻画 。 如 果 将 被 试 ? 作 答 
完 第 /7 道 题目 后 得 到 的 p 维 能 力 估 计 值 记 为 6, = 


i’ if 
(6,8 j25°**> in) > 那么 6; [Sar Sanit 
j=l j=l 


i’ 
Sigs], mt 7 he 
j=l 


差 矩阵 记 为 2 ,那么 根据 马 氏 距离 的 定义 且 当 
2y TRAE; OM, 有 


bo =argmin||0;, — 4 llu = 
USON 


arg min J0 -870 -0;)". (18) 
USN 


EO 1 Oy Fj Oy KIZ E EDT E E AAE E, 


即 
6; =o A 


| 8; -ôl 


ô 

ME Â, “5 Os J, Mahalanobis-SPRT 按照 等 式 

(5) (OFFF Â, | Ô, AR Cy, 然后 按照 公式 (11) 
所 述 的 判断 准则 对 被 试 进行 分 类 。 

需要 指出 的 是 ,公式 (17) 中 有 两 处 与 P-SPRT 

所 定义 的 公式 (12) 不 同 : 第 一 ，Mahalanobis-SPRT 

使 用 “已 得 到 的 多 个 能 力 估计 值 的 均值 ( 0,, 六 代替 
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P-SPRT 中 的 单个 能 力 估 计 值 ; 第 二 ,Mahalanobis- 
SPRT 使 用 马 氏 距离 作为 距离 的 度量 方式 ， 而 非 
P-SPRT 中 的 欧式 距离 。 总 之 , Mahalanobis-SPRT 新 
规则 使 用 被 试 能 力 的 一 系列 序 贯 估计 值 ， 并 将 分 界 
曲线 或 曲面 上 距 其 均值 最 近 的 点 作为 名 ; 相 较 于 
P-SPRT 使 用 单一 能 力 估 计 值 进行 投影 ， 新 规则 理 
应 能 够 获得 更 加 稳健 的 结果 。 
2.3.2 M-SCGLR 规则 

Huebner 和 Fina (2015) 提 出 的 SCGLR 规则 将 


随机 缩减 的 方法 与 GLR MAA, 在 保持 测验 分 类 
精度 的 前 提 下 能 够 缩短 测验 长 度 。 因 此 ， 本 文 将 
SCGLR 方法 推广 至 MCCT 情境 ， 并 得 到 多 维 的 
SCGLR 规则 ( 记 为 M-SCGLR)。M-SCGLR 直接 沿 
用 M-GLR 的 方式 构造 GLR 统计 量 ， 如 等 式 (13) 
所 示 。 

但 是 ,在 对 被 试 进行 分 类 判断 时 ，M-SCGLR 
采用 的 是 随机 缩减 方法 ， 即 对 公式 (11) 在 <J 的 
情况 下 进行 如 下 调整 : 


停止 测验 ,K = j',D=n 若 {Cj, < CRC, < Cy S Co, P(D, =n| Cy) 21-4 


停止 测验 ,K = j',D=m A{Cy > C, YRC, > Cy >Cy,P(D, =m| Cy) 21-4 (20) 

继续 测验 否则 
在 公式 (20) 中 ， 与 已 有 的 4 种 终止 规则 ( 即 C-SPRT 、P-SPRT .M-GLR 
P(D; =n|Cy)=1-P(Dj, = mlC;) ~ 以 及 M-SCSPRT) 进 行 比较 ,并 评价 它们 在 测验 精 
= By 度 和 测验 效率 两 方面 的 表现 以 揭示 各 种 方法 的 优 
[See] QD 缺点 以 及 适用 情境 ; (2) 对 比 上 述 6 种 终止 规则 对 于 


其 中 ， 
sup [L(0,|Y;)] 


J 
: 0 0 
Eig (Cis|Ci) = Cip + ig | een N 
i i > sup [ZL(0,|Y;)] 
0,<0,, 


j=j+ 
J sup [L(0,|Y;)] 
0 c0 
Vary (C; |C; ) = Varg | log —~——_—_ |, (23) 
i 2 sup [LOY] 
2S 1 


其 中 ，@() 为 标准 正 态 分 布 的 分 布 函数 。 公 式 
(21)、(22) 和 (23) 的 具体 推导 过 程 ， 感 兴趣 的 读者 可 
参见 网 络 版 附录 1。 

需要 注意 的 是 ， 当 能 够 事先 知道 第 +1 道 题 
到 第 J 道 题目 的 选取 时 ， 上 述 计 算 并 不 困难 。 但 在 
自 适应 序 贯 选 题 的 情境 下 ， 无 法 提前 获知 接 下 来 的 
题目 。 此 时 , 为 计算 等 式 (22) 与 (23), 可 以 使 用 一 组 
合适 的 题目 蔡 代 被 试 接 下 来 要 实际 作答 的 题目 。 比 
如 ， 当 使 用 D 最 优选 题 策略 时 ( 即 最 大 化 Fisher 信 
息 和 矩阵 的 行列 式 ), 可 以 基于 当前 的 能 力 估 计 值 计 
算 所 有 剩余 题目 的 Fisher 信息 矩阵 的 行列 式 , 然后 
选择 值 最 大 的 -六 道 题目 作为 百代 的 题目 。 单 维 
情形 下 的 研究 表明 : 当 使 用 蔡 代 题目 时 ， 需 适当 减 
小 错误 率 4 和 的 值 (Finkelman, 2008). 


3 实验 


本 研究 采用 R 3.4.2 自 编 计算 机 程序 开展 模拟 
研究， 共有 两 个 研究 目的 : (1) 将 新 提出 的 2 种 
MCCT 终止 规则 ( 即 Mahalanobis-SPRT 和 M-SCGLR) 


具有 特定 能 力 水 平 的 被 试 的 分 类 表现 ， 以 探究 各 种 
规则 对 特定 被 试 的 分 类 敏感 度 是 否 存 在 明显 差异 。 

考虑 到 不 同 题库 结构 、 能 力 维度 间 相 关 及 能 
分 界 曲线 会 对 MCCT 的 结果 产生 影响 , 本 人 研究 设 
E 2 种 题库 结构 、3 种 能 力 维 度 间 的 相关 水 平和 2 
种 分 界 曲 线 , 对 6 种 MCCT 终止 规则 展开 模拟 研究 ， 
岂 即 采用 2x3x2x6 的 实验 设计 (共产 生 72 种 实验 条 
件 , 12 种 MCCT 测验 人 情境) 实现 研究 目的 一 。 另 外 ， 
本 研究 还 分 别 选取 靠近 或 远离 能 力 分 类 曲线 的 36 
种 特定 能 力 取 值 的 被 试 及 2 种 分 界 曲线 以 实现 研究 
目的 二 。 
3.1 题库 与 被 试 生成 

MIRT 的 研究 中 通常 考虑 两 种 题库 结构 ， 即 题 
目 内 多 维 (within-item multidimensionality) 和 题目 间 
多 维 (between-item mnultidimensionality)。 其 中 ， 题 
目 内 多 维 是 指 题 库 中 的 每 道 题目 均 测 量 一 个 或 多 
个 维度 ， 而 题目 间 多 维 则 是 指 题库 中 的 每 道 题目 有 
且 仅 测量 一 个 维度 (Hartig & Hohler 2008; Wang & 
Chen, 2004)。 由 于 题库 结构 会 对 被 试 能 力 向 量 的 佑 
计 精 度 产 生 影响 (Chen & Wang, 2016)， 因 此 本 文 按 
照 公 式 (1) 所 定义 的 MIRT 模型 生成 两 个 MCCT 题 
E: 题库 1 采用 题目 内 多 维 的 结构 , 题库 2 采用 题 
目 间 多 维 的 结构 ,每 个 题库 均 包含 900 道 题目 。 题 
库 1 中 每 道 题目 都 测量 两 个 维度 ( 即 p=2),， 由 此 可 
记 题 库 中 的 题目 参数 向 量 为 y= (a1,as,d,c)” 。 题 库 
2 中 的 一 半 题 目 仅 测 量 第 一 个 维度 ， 另 一 半 则 仅 测 
量 第 二 个 维度 。 为 使 模拟 情境 尽 可 能 地 接近 现实 情 


1050 心 理 


报 第 53 卷 


性 


Ul, 本 研究 按照 Nydick (2013) 的 做 法 模拟 各 个 参数 : 

(1) a Fla, BR. WEEN Hog = 0.5、 标 准 差 
为 Org =0.1 的 对 数 正 态 分 布 中 随机 抽取 区 分 度 参 
数 MDISC ( 即 Ja; +a? )。 于 是 在 题库 1 中 , 可 以 从 均 
匀 分 布 V(0,MD1SC”) PHW af, W) ay = MDISC? - 
qa? ; 而 在 题库 2 P, 设置 对 应 维度 的 a 参数 等 于 
MDISC 即 可 。 

(2) 4 和 cc 参数 。 从 U(-3.5,3.5) 中 随机 抽取 与 
难度 相关 的 参数 上 。 由 此 , 在 题库 1 中 ,与 之 相关 
的 参数 4d = -5.al， 其 中 1 是 元 素 全 为 1 的 2 维 列 向 
量 ; 在 题库 2 中 ，4 为 b 和 对 应 维度 的 “参数 的 乘 
积 的 负 值 。 此 外 , 固定 参数 c 为 0.2。 

另 一 方面 , 本 文 模拟 3000 名 被 试 参与 测验 ,被 
试 的 能 力 向 量 0=(2,2) 随机 抽取 自 均值 向 量 为 


h=, WE 人 | 的 二 维 正 态 分 


fi MVN (p, £), P p=0 0.5 和 0.8, 分别 对 应 能 
力 维度 间 没 有 相关 、 中 等 相关 和 高 度 相关 3 种 水 平 
(Chen et al., 2017)。 此 外 , 本文 模 拟 36 个 特定 的 能 
力 向 量 值 (9,2) 用 于 实现 研究 目的 二 ,其 中 
0,0, € {-0.5,-0.3,-0.1,0.1,0.3,0.5} (6 个 点 在 两 个 维 
度 上 完全 交叉 共 形 成 36 NA) 每 个 能 力 点 上 生成 
500 名 被 试 参与 测验 。 

对 模拟 生成 的 数据 进行 描述 统计 ,得 到 的 结果 
如 表 1 所 示 。 
3.2 MCCT 的 模拟 程序 描述 

从 能 力 估计 方法 、 选 题 策略 以 及 终止 规则 等 三 
个 方面 对 MCCT 的 模拟 过 程 进行 描述 : 

(1) 能 力 估计 方法 

本 研究 采用 约束 的 极 大 似 然 佑 计 法 (Maximum 
Likelihood Estimation，MLE) 佑 计 被 试 的 能 力 向 量 
(10, WH Â, 参数 的 估计 范围 限定 在 [-4,4]x[-4,4] 
的 正方 形 区 域 , 公式 如 下 ， 


Ô= argmax {log[L(0lY)]}. (24) 
—4,4] 


ik 

具体 的 估计 过 程 由 R 3.4.2 中 的 donlp2 函数 
实现 。 

(2) 选 题 策略 

根据 以 往 研究 (Nydick, 2013; Segall, 1996), 使 
用 经 典 的 D 最 优 D-optimality) 策 略 选取 题目 。D 最 
优 策略 选择 最 大 化 Fisher 信息 矩阵 的 行列 式 的 题目 ， 
它 等 价 于 选择 最 小 化 未 知 参 数 协 方差 矩阵 的 行列 
式 ( 即 9 的 置信 椭 球 体积 ) 的 题目 。 针 对 (1) 式 定义 的 
MIRT 模型 ， 任 一 题目 7 了 的 Fisher 信息 和 矩阵 为 ， 
| see i 


7 (O 
;®) 0000T 
-p (Op; 0- i 
—~ aa]. 
Dj)(O)[1-cj] 

在 模拟 的 二 维 情境 下 ， 上 述 Fisher 信息 矩阵 是 
一 个 2x2 的 矩阵 。 在 选择 第 j 道 题 目 时 ， 关 于 0 的 
Fisher 信息 矩阵 是 “已 作答 的 (LIL a BE 
阵 ” 与 “候选 的 第 7 道 题 的 信息 矩阵 ”之 和 (也 即 


j- 
> Ar(O)+7(O))。 由 此 ,被 试 能 力 估 计 值 的 置信 椭 
k=] 


球 的 体积 为 ， 


(25) 


= 
, (26) 


j-l 
Yi.) +1) 
k=l 

使 用 D 最 优 策 略 选择 的 第 /7 道 题目 就 是 剩余 题 
库 中 使 得 公式 (26) 达 到 最 小 的 题目 。 

另外 , 由 于 在 测验 初期 难以 获得 对 被 试 能 力 的 
准确 估计 值 (Chang & Ying, 1996), 难以 达到 精准 选 
题 的 目的 。 因 此 , 本 研究 中 每 次 测验 的 前 4 道 试题 
从 题库 中 随机 抽取 产生 。 

(3) 终 止 规则 与 分 界 曲 线 

本 研究 采用 C-SPRT, P-SPRT, M-GLR, 


GVar(0) = 


表 1 研究 1 中 各 参数 的 描述 统计 表 
统计 量 题库 1( 题 目 内 多 维 ) 题库 2( 题 目 间 多 维 ) 被 试 (p=0) 被 试 (p=0.5) 被 试 (p=0.8) 
ay a d C ay a d ¢ 01 b2 (eh 02 0 b2 
平均 数 1.103 1.098 0.086 0.200 0.830 0.833 0.131 0.200 -0.010 0.021 0.022 0.006 -0.016 -0.025 
标准 差 0.428 0.414 4.348 0.000 0.839 0.842 3.336 0.000 0.998 0.996 1.011 0.991 0.999 1.000 
最 小 值 0.038 0.040 -9.327 0.200 0.000 0.000 -6.281 0.200 -3.331 -3.125 -3.614 -3.196 -4.016 -3.267 
最 大 值 2.285 2.065 8.873 0.200 2.196 2.329 7.220 0.200 3.252 3.332 4.269 3.071 3.264 3.712 
相关 系数 矩阵 1 0.782 -0.011 1 -0.981 -0.001 — 1 -0.002 1 0.486 1 0.803 
0.782 1 0.009 一 -0.981 1 0.004 一 -0.002 1 0.486 1 0.803 1 
-0.011 0.009 1 — -0.001 0.004 1 
HE: 表 1 中 仅 呈 现 为 实现 研究 目的 一 而 生成 的 各 参数 的 描述 统计 量 ， 这 是 因为 研究 目的 二 是 针对 36 种 特定 能 力 值 的 被 试 。 
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M-SCSPRT、Mahalanobis-SPRT、M-SCGLR 等 6 
种 规则 终止 测验 。 按 照 Thompson (2010) 的 设置 , 这 
HA a=f=01 A 4 =6 =0.025 。 为 考察 不 同类 型 
的 分 界 曲线 对 结果 的 影响 , 本 研究 设置 两 种 分 界 曲 
线 : 补 偿 性 分 界 曲线 和 非 补偿 的 分 界 曲线 。 其 中 ， 补 
偿 性 分 界 曲线 是 指 不 同 维度 间 的 能 力 是 通过 线性 
组 合 的 方式 结合 在 一 起 ， 此 时 被 试 在 某 个 维度 上 能 
力 的 不 足 可 以 由 其 在 其 他 维度 上 的 高 能 力 来 补偿 。 
否则 ， 当 被 试 不 同 维度 间 的 能 力 无 法 相互 补偿 时 ， 
即 为 非 补 偿 性 分 界 曲线 。 参 考 Nydick (2013) 的 做 法 ， 
本 研究 选取 的 补偿 性 分 界 曲线 为 8(0) = 6, +0, =0, 
非 补偿 的 分 界 曲线 为 TEY = 00270 ug 
0, =0,0, >0 

卡尔 坐标 系 中 构成 第 一 象限 的 坐标 轴 )。 
3.3 ”评价 指标 

选择 平均 测验 长 度 (4verage Test Length, ATL), 
正确 分 类 率 (Percent of Correct Classification, PCC) 
以 及 损失 函数 (loss) 评 价 每 种 终止 规则 。 

ATL 是 某 种 测验 情境 下 所 有 被 试 的 最 终 测 验 
长 度 的 平均 值 ,在 一 定 程度 上 反映 测验 效率 。PCC 
是 被 正确 分 类 的 被 试 占 该 测验 情境 下 所 有 被 试 的 
比例 , 反映 测验 分 类 精度 。Finkelman (2010) 定 义 的 
loss 是 对 某 次 测验 的 测验 精度 和 效率 的 综合 评价 
指标 ， 


loss= Rxly +K, (27) 
其 中 ，1y 表示 错误 分 类 的 示 性 函数 ( 当 对 被 试 
错误 分 类 时 取 值 为 1， 当 没有 误 判 时 取 值 为 0); R 
表示 错误 分 类 的 惩罚 程度 ,一 般 为 非 负 值 ， 其 取 值 
越 大 就 表示 对 错误 分 类 的 惩罚 越 大 ， 即 对 精度 的 要 
求 越 高 (在 计算 时 需 由 研究 者 根据 测验 对 错误 分 类 
的 厌恶 程度 给 定 ); KK 和 前 文 一 样 ， 表示 被 试 最 终 
完成 测验 时 实际 作答 的 题目 数 。 在 某 次 测验 中 ， 如 
果 将 被 试 错误 分 类 ,loss 的 值 为 惩罚 值 尺 与 该 次 测 
验 的 长 度 之 和 ; 否则 , loss 的 值 就 等 于 该 次 测验 的 
长 度 。 如 果 在 多 次 测验 中 国定 R， 并 将 式 (27) 取 平 
均 ， 即 可 得 到 平均 损失 ， 
loss = Rx(1 -PCC)+ATL, (28) 
1 此 , 平均 损失 是 一 种 结合 PCC 和 ATL 的 综 
合 评 价 指 标 。 具 体 地 说 ，R 确定 后 ， 对 于 某 个 终止 
规则 而 言 ,其 PCC 越 大 且 ATL 越 小 ， 则 平均 损失 就 
越 小 ， 表示 该 方法 表现 越 好 ; 相反 地 ，PCC 越 小 ， 
ATL BK, 平均 损失 就 越 大 ， 表示 该 方法 表现 越 
差 。 根 据 平均 损失 的 大 小 ， 就 可 以 指导 实际 测验 中 
终止 规则 的 选择 。 


4 结 


4.1 各 种 规则 的 分 类 精度 与 效率 

图 2 呈现 了 6 种 终止 规则 在 各 种 MCCT 测 验 情 
境 下 的 ATL 及 PCC 结果 。 

在 图 2 中 ,根据 是 否 采用 随机 缩减 技术 可 以 将 
6 种 规则 分 为 两 类 。 在 所 有 的 12 种 测验 情境 中 , 未 
采用 随机 缩减 技术 的 C-SPRT、P-SPRT、M-GLR 以 
及 新 提出 的 Mahalanobis-SPRT 规则 的 PCC 均 较 高 ， 
而 采用 随机 缩减 技术 的 M-SCSPRT 以 及 新 提出 的 
M-SCGLR 的 PCC 相对 较 低 (但 也 都 在 80% 以 上 )。 
与 此 同时 , 采用 随机 缩减 技术 的 2 种 规则 的 ATL H 
显 低 于 未 采用 随机 缩减 的 4 种 规则 。 也 就 是 说 ， 随 
机 缩减 的 方法 尽管 可 能 损失 一 定 的 分 类 精度 , 但 能 
较 大 幅度 地 缩短 被 试 作答 的 测验 长 度 。 

考察 本 研究 提出 的 两 种 新 方法 的 表现 。 对 于 本 
文 提 出 的 Mahalanobis-SPRT,， 在 补偿 性 分 界 曲线 的 
情境 下 ， 其 总 体 上 具有 较 高 的 PCC: 在 题目 间 多 维 
时 ,该 方法 的 PCC 仅仅 略 低 于 表现 最 好 的 P-SPRT 
方法 ， 而 在 题目 内 多 维 时 ， 该 方法 具有 6 种 方法 中 
最 高 的 PCC; 而 在 非 补偿 性 分 界 曲线 的 情境 下 ， 虽 
然 该 方法 的 PCC 低 于 其 他 未 使 用 随机 缩减 的 方法 ， 
但 是 ATL 也 有 相应 的 降低 ， 而 且 可 以 看 到 其 表现 
随 能 力 维度 间 相 关 的 升 高 有 更 大 改善 。 对 于 本 文 提 
出 的 另 一 种 终止 规则 ( 即 M-SCGLR), 在 几乎 所 有 测 
验 情 境 下 ,， 相 比 于 同样 采用 随机 缩减 的 M-SCSPRT， 
EN PCC 有 较 大 提高 ， 而 ATL 增加 的 却 并 不 多 。 
在 使 用 非 补偿 性 曲线 和 题目 内 多 维 的 情境 下 ， 
M-SCGLR 的 PCC 甚至 能 够 接近 未 采用 随机 缩减 技 
术 的 规则 的 水 平 。 

考察 能 力 维度 间 的 相关 水 平 对 各 终止 规则 的 
影响 ,可 以 发 现 : 随 着 能 力 维度 间 相 关系 数 p 的 增 
加 , 6 种 终止 规则 的 ATL 有 减少 的 趋势 ,而 PCC 则 
有 升 高 的 趋势 。 以 Mahalanobis-SPRT 规则 为 例 ， 随 
着 p 的 增加 ， 其 在 每 个 p 值 下 的 四 种 测验 情境 里 
的 平均 PCC 由 0.916 逐渐 增加 到 0.925 和 0.942， 而 
平均 ATL 则 由 57.037 下 降 到 54.437 和 52.384。 考 
察 分界 曲 线 对 各 终止 规则 的 影响 , 可 以 发 现 : 相 比 
于 非 补 偿 的 分 界 曲线 ，6 种 终止 规则 在 几乎 所 有 的 
补偿 性 分 界 曲线 情境 下 的 ATL 均 有 所 下 降 ， 而 
PCC 则 有 所 升 高 。 考 察 题库 结构 对 各 终止 规则 的 影 
响 时 ， 情 况 就 变 得 复杂 起 来 。 由 图 2 知 ， 它 与 分 界 
曲线 会 对 各 终止 规则 的 表现 产生 交互 作用 。 也 就 是 
说 ,在 补偿 性 分 界 曲线 的 情境 下 ， 相 比 于 题目 间 多 
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维 的 条 件 ,，6 种 终止 规则 在 题目 内 多 维 条 件 下 的 
ATL 均 有 所 下 降 , 而 PCC 均 有 所 升 高 。 而 在 非 补偿 
分 界 曲 线 的 情境 下 , 6 种 规则 在 题目 内 多 维 与 题目 
间 多 维 的 差异 就 没有 统一 规律 。 

图 3 呈现 的 是 6 种 终止 规则 在 各 种 MCCT 测 验 


图 2 6 种 终止 规则 在 各 种 测验 情境 下 的 结果 对 比 图 


R 值 下 6 种 规则 的 平均 损失 的 标准 化 值 '。 
根据 平均 损失 的 定义 随 着 R 值 的 增加 , 平均 

损失 对 误 判 的 敏感 度 不 断 上 升 。 当 RR 值 约 小 于 500 

时 ，ATL 较 小 的 规则 ( 即 M-GLR、M-SCGLR 和 


情境 下 的 标准 化 平均 损失 。 图 中 的 横 坐 标 代表 错误 
分 类 的 惩罚 R ( 详 见 公式 28), 其 从 区 间 [0,3000] 按 
步 长 为 1 取 值 ， 共 得 到 3001 个 点 ; 纵 坐 标 是 在 各 个 


! 根据 公式 (28), 随 R 值 增 大 , 平均 损失 也 将 不 断 增 大 。 为 清晰 
展示 6 种 终止 规则 的 平均 损失 值 的 相对 关系 随 的 变化 趋势 ,此 
处 呈现 在 各 个 尺 值 点 处 6 种 终止 规则 标准 化 后 的 平均 损失 。 标 
准 化 后 , 我 们 只 关注 每 一 测验 条 件 下 6 种 规则 的 相对 大 小 关系 。 
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图 3 6 种 终止 规则 在 各 种 测验 情境 下 的 标准 化 平均 损失 变化 图 


M-SCSPRT) 平 均 损 失 较 小 ; 当 R 值 大 于 约 1000 时 ， 
平均 损失 对 测验 分 类 精度 更 敏感 , 分 类 精度 较 高 的 
规则 ( 即 C-SPRT、P-SPRT 和 Mahalanobis-SPRT) 平 
均 损 失 更 小 。 

对 于 新 提出 的 Mahalanobis-SPRT, 在 补偿 性 分 


R 


——- Mahalanobis-SPRT 


非 补偿 性 分 界 曲线 
题目 内 多 维 


2000 3000 0 1000 2000 3000 


--- M-GLR ~- M-SCGLR ----: M-SCSPRT 


的 取 值 如 何 ， 其 平均 损失 的 值 整体 上 处 于 6 种 方法 
的 中 间 位 置 。 这 就 是 说 , 在 实际 测验 中 ， 该 方法 更 
适用 于 以 下 两 种 情境 : 一 是 使 用 补偿 性 分 界 曲线 且 
对 精度 要 求 较 高 的 情境 。 在 该 情境 下 , Mahalanobis- 
SPRT 的 平均 损失 较 其 他 规则 更 低 ， 表现 更 好 ; 二 


界 曲线 的 所 有 情境 下 ， 该 方法 在 对 精度 要 求 较 高 
( 即 取 值 较 大 ) 时 , 具有 更 低 的 平均 损失 (这 与 其 
在 补偿 性 分 界 曲线 的 条 件 下 具有 更 高 的 PCC 是 对 
应 的 ); 在 非 补偿 分 界 曲线 的 所 有 情境 下 ,无 论 尺 


是 使 用 非 补 偿 性 分 界 曲线 且 不 能 确定 对 精度 的 具 
体 要 求 的 情境 ,此 时 , 虽然 Mahalanobis-SPRT 的 平 
均 损 失 并 不 是 最 低 , 但 是 由 于 测验 对 精度 的 要 求 并 
不 确定 ,选择 其 他 规则 可 能 会 导致 在 精度 要 求 较 高 / 
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较 低 时 产生 较 大 的 损失 。 因此 ,可 以 将 Mahalanobis- 
SPRT 作为 一 种 相对 “保守 ”的 选择 。 对 于 本 研究 提 
出 的 另 一 种 规则 ( 即 M-SCGLR), 在 几乎 所 有 测验 
情境 下 ,该 方法 在 R 很 小 ( 约 小 于 200) 时 的 平均 损 
失 略 高 于 同样 使 用 随机 缩减 技术 的 M-SCSPRT。 但 
是 , 在 R 的 值 稍 高 ( 约 大 于 200) 时 ，M-SCGLR 的 平 
均 损 失 较 M-SCSPRT 有 明显 的 降低 (这 与 “其 PCC 
较 M-SCSPRT 有 较 大 提高 , 而 ATL 的 增加 则 相对 
较 少 ”相对 应 )。 这 表明 在 多 数 情境 下 , M-SCGLR 在 
测验 精度 上 明显 优 于 M-SCSPRT。 
4.2 ”各 种 规则 对 特定 被 试 的 敏感 度 

对 应 于 第 二 个 研究 目的 , 图 4 和 图 5 呈现 了 能 
为 各 种 特定 值 的 被 试 在 6 种 终止 规则 下 的 PCC 结 
果 。 需要 说 明 的 是 , 图 4 中 的 黑色 实 线 表示 补偿 的 能 
力 分 界 曲线 g(O) =6,4+0, =0, 图 5 中 的 黑色 实 线 则 
表示 非 补偿 的 能 力 分 界 曲线 g0) = ene a 
由 图 4 和 图 5 可知， 无 论 采用 哪 种 分 界 曲线 , 6 
种 终止 规则 在 PCC 指标 上 对 各 种 特定 能 力 被 试 的 
敏感 度 呈 现 出 一 致 的 变化 规律 。 具 体 而 言 ， 对 于 能 
力 值 靠近 能 力 分 界 曲线 的 被 试 ， 其 测验 的 PCC 都 
较 低 ; 而 对 于 能 力 值 远离 能 力 分 界 曲 线 的 被 试 , 其 
测验 的 PCC 都 较 高 。 这 说 明 能 力 值 越 靠 近 能 力 分 
界 曲 线 的 被 试 ， 越 难 对 其 进行 准确 的 分 类 。 上 述 能 
力 为 各 种 特定 值 的 被 试 在 ATL 上 呈现 的 规律 则 与 


C-SPRT 


P-SPRT 


PCC 恰好 相反 。 也 即 对 于 6 种 终止 规则 ,能 力 值 越 
靠近 能 力 分 界 曲 线 的 被 试 , 其 ATL 越 大 ,限于 篇 幅 ， 
此 处 不 再 呈现 ATL 的 结果 。 


5 ”讨论 及 未 来 的 研究 方向 


本 研究 采用 测验 分 类 精度 及 测验 效率 两 个 方 
面 的 指标 , 将 新 提出 的 两 种 MCCT 终止 规则 与 已 
有 的 终止 规则 进行 比较 。 在 单 维 CCT 中 ,基于 不 同 
类 别 被 试 间 的 能 力 阔 值 即 可 构造 似 然 比 统计 量 ， 并 
进行 假设 检验 ， 从 而 达到 对 被 试 进行 分 类 的 目的 。 
但 在 MCCT 中 , 由 于 不 同类 别 被 试 的 分 界 点 变 为 
分 界 曲线 或 曲面 ， 故 需要 对 传统 CCT 中 的 方法 进 
行 调整 以 适应 这 一 变化 。 在 已 有 的 MCCT 终止 规则 
中 , C-SPRT 与 P-SPRT 规则 分 别 使 用 约束 与 投影 的 
方式 ， 将 能 力 分 界 曲线 或 曲面 “压缩 ?为 分 界 点 ; 
M-GLR 规则 对 统计 量 的 定义 域 进行 一 定 的 调整 ; 
M-SCSPRT 规则 将 随机 缩减 技术 与 C-SPRT 相 结合 ， 
大 大 提高 测验 效率 。 值 得 注意 的 是 ， 由 于 P-SPRT 
仅 使 用 一 次 估计 的 能 力 结果 进行 投影 ,在 测验 初期 
可 能 会 使 投影 得 到 的 6 不够 稳定 ， 从 而 影响 测验 
分 类 。 对 此 , 本 文 提出 基于 马 氏 距离 的 Mahalanobis- 
SPRT 新 规则 ， 以 弥补 这 一 不 足 。 另 外 , 本文 在 MCCT 
情境 中 还 对 单 维 的 SCGLR 方法 进行 多 维 拓展 ， 并 
得 到 M-SCGLR 新 规则 。 

根据 4.1 的 结果 , 有 一 些 值得 讨论 的 发 现 : (1) 对 
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图 4 


能 力 为 各 种 特定 值 的 被 试 在 补偿 性 边界 下 6 种 终止 规则 的 PCC 结 
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于 本 研究 提出 的 M-SCGLR 方法 , 在 非 补 偿 曲 线 和 
题目 内 多 维 的 情境 下 ,其 PCC 较 高 , 接近 未 使 用 随 
机 缩减 技术 的 方法 。 这 可 能 是 因为 以 广义 似 然 比 为 
基础 的 M-SCGLR 方法 不 需要 “将 分 界 曲线 转化 为 
分 界 点 ”， 所 以 受 分 界 曲线 的 影响 更 小 ， 而 其 他 规 
则 的 PCC 在 非 补偿 曲线 的 情境 下 会 明显 下 降 ; (2) 对 
于 Mahalanobis-SPRT 方法 而 言 ， 尽管 预期 其 能 够 
弥补 P-SPRT 在 测验 前 期 所 产生 的 能 力 估计 问题 ， 
但 是 它 在 模拟 结果 中 的 表现 并 不 尽 如 人 意 。 这 可 能 
是 由 于 该 方法 在 测验 后 期 时 , 会 使 用 较 多 测验 前 期 
的 作答 信息 ， 从 而 加 大 测验 前 期 作答 对 结果 的 影 
响 。 本 研究 所 设置 的 最 大 测验 长 度 为 100, 这 意味 
着 在 测验 结束 时 ,往往 能 够 得 到 比较 准确 的 被 试 能 
力 估计 值 。 因此 , Mahalanobis-SPRT 方法 对 P-SPRT 
初期 的 能 力 估 计 问 题 的 弥补 可 能 就 无 法 很 好 体现 。 


当 最 大 测验 长 度 较 小 时 ， 该 方法 可 能 会 有 更 好 表现 ; 


(3) 在 未 使 用 随机 缩减 的 4 种 规则 中 , M-GLR 规则 的 
ATL 较 其 他 3 种 规则 有 较 大 幅度 的 减少 ， 这 与 
Thompson (2011) 在 单 维 情境 下 得 到 的 结论 一 致 ; 
(4) 随 着 能 力 维度 间 相 关系 数 p 的 增加 ，6 种 终止 规 
则 都 有 更 好 的 表现 。 这 主要 是 因为 增加 维度 间 相 关 
有 助 于 提高 能 力 向 量 的 估计 精度 。 这 也 与 贝 叶 斯 统 
计 中 的 普遍 观点 ( 即 从 高 度 相关 的 维度 中 借用 信息 
会 产生 更 准确 的 能 力 估计 ) 一 致 ; (3) 相 比 于 非 补偿 


@ 
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图 5 能 力 为 各 种 特定 值 的 被 试 在 非 补 偿 性 边界 下 6 种 终止 规则 的 PCC 结果 


的 分 界 曲线 ，6 种 终止 规则 在 几乎 所 有 的 补偿 性 分 
界 曲线 情境 下 都 有 更 好 的 表现 ， 这 是 因为 本 研究 所 
使 用 的 M3PL 模型 是 补偿 性 模型 其 与 补偿 性 的 分 
界 曲线 更 为 契合 ,所 以 导致 “在 补偿 性 曲线 情境 下 ， 
各 个 终止 规则 的 表现 更 好 ” (6) 题 库 结 构 与 分 界 曲 
线 会 对 终止 规则 的 表现 产生 交互 作用 。 具 体 而 言 ， 
在 补偿 性 分 界 曲线 的 情境 下 ,， 相 比 于 题目 间 多 维 的 
条 件 , 6 种 终止 规则 在 题目 内 多 维 条 件 下 的 表现 更 
好 。 这 可 能 是 因为 相 较 于 题目 间 多 维 的 题库 结构 ， 
题目 内 多 维 的 题库 结构 能 够 提供 更 高 的 多 维 区 分 
度 ， 从 而 提高 能 力 估计 的 准确 性 。 具 体 来 说 ， 对 于 
有 着 题目 内 多 维 结构 的 题库 1 来 说 ,每 个 维度 被 所 
有 900 个 题目 测量 ; 而 对 于 有 着 题目 间 多 维 结构 的 
题库 2 来 说 ,每 个 维度 只 有 450 个 题目 测量 (一 半 题 
目的 =0，, 另 一 半 题 目 a =0)。 但 是 在 非 补偿 分 
界 曲线 的 情境 下 , 6 种 规则 在 题目 内 多 维 与 题目 间 多 
维 的 差异 就 没有 统一 规律 。 这 可 能 是 由 于 本 研究 考 
虚 的 非 补偿 边界 其 实 就 是 直角 坐标 系 中 构成 第 一 
象限 的 坐标 轴 ， 所 以 边界 上 的 能 力 浆 值 都 只 具有 单 
一 维度 ， 导 臻 题目 内 多 维 的 上 述 优势 不 能 很 好 发 挥 。 

此 外 , 还 需要 注意 的 一 点 是 MCCT 中 的 能 力 维 
度数 量 。 理 论 上 看 ， 随 着 维度 数 的 增加 , 平均 测验 
长 度 会 逐渐 增加 ， 而 测验 精度 则 会 有 下 降 趋 势 。 但 
是 , MCCT 是 一 个 相当 复杂 的 系统 。 当 维度 数 不 断 
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增 大 时 , 平均 测验 长 度 和 测验 精度 将 会 呈现 何 种 变 
化 趋势 (是 指数 式 的 变化 还 是 线性 的 变化 ? )、 不 同 
终止 规则 与 不 同 选 题 策略 的 组 合 会 对 结果 造成 何 
种 影响 以 及 随机 缩减 技术 的 优势 是 否 会 进一步 扩 
大 ,都 有 待 进一步 的 研究 。 同时 ， 当 维度 数 增 大 到 一 
定 程 度 时 , 计算 机 还 将 会 面临 一 些 计 算 上 的 挑战 。 

本 研究 仍 有 一 些 不 足 之 处 ， 比 如 : 本 文 主要 局 
限于 提出 新 规则 以 及 模拟 实现 上 , 在 对 新 规则 理论 
性 质 的 推导 和 证 明 等 方面 仍 有 待 完善 。 本 研究 所 讨 
论 的 规则 均 限 定 在 对 被 试 进行 二 分 的 情境 下 ， 而 没 
有 考虑 多 分 类 的 情况 。 在 模拟 研究 的 设置 上 ,本 人 研 
究 没 有 考虑 非 补偿 MIRT 模型 、 其 他 的 多 维 区 分 度 
参数 生成 方式 、 不 同 的 维度 数 以 及 不 同 的 最 大 测验 
长 度 对 结果 的 影响 。 

未 来 可 以 从 以 下 四 方面 进一步 开展 研究 : (1) 提 
出 新 的 多 维 似 然 比 统计 量 。 考 虑 构造 将 能 力 分 界 曲 
线 或 曲面 转化 为 分 界 点 的 新 方法 ， 使 得 “在 保证 良 
好 的 分 类 准确 率 及 测验 效率 的 同时 ， 能 较 好 解决 目 
前 方法 中 存在 的 问题 ” (2) 开发 多 分 类 MCCT 的 终 
止 规则 。 目前， 有 研究 者 对 多 分 类 的 CCT 终止 规则 
进行 探索 (比如 ，Wang et al., 2020), 但 是 对 多 分 类 
MCCT 终止 规则 的 研究 仍 未 见 公 开 报 道 。 构造 多 分 
类 MCCT 终止 规则 可 实现 在 多 维 情境 下 对 被 试 的 
更 细致 分 类 , 值得 今后 进一步 探索 ; (3) 考 虑 融入 过 
程 性 信息 ， 比 如 反应 时 (response time), 已 有 研究 表 
BA, 反应 时 能 够 提高 能 力 估计 精度 (Wang & Hanson, 
2005)。 结 合 反应 时 构造 MCCT 终止 规则 ,预期 在 
保证 测验 效率 的 同时 还 能 进一步 提高 分 类 精度 。 此 
外 ,由 于 马 氏 距离 具有 “不 受 量 纲 影响 "和 “能 够 同 
时 考虑 能 力 与 反应 时 信息 ”等 特点 ， 因 此 本 研究 提 
出 的 Mahalanobis-SPRT 可 为 这 方面 的 探索 提供 一 
种 可 行路 径 ; (4) 在 模拟 研究 中 ,考虑 更 丰富 的 条 件 
设置 (比如 , 不 同 的 MIRT 模型 、 多 维 区 分 度 参数 的 
生成 方式 、 维 度数 以 及 最 大 测验 长 度 等 )， 考察 其 对 
结果 的 影响 。 


6 结论 


模拟 结果 显示 : (1) 在 使 用 补偿 性 分 界 函数 的 条 
件 下 ,新 提出 的 Mahalanobis-SPRT 规则 具有 和 较 高 
的 分 类 精度 以 及 与 其 他 未 使 用 随机 缩减 的 方法 相 
近 的 测验 长 度 ; (2) 在 几乎 所 有 实验 条 件 下 ,新 提出 
的 M-SCGLR 规则 不 仅 在 测验 精度 大 幅 优 于 同样 采 
用 随机 缩减 的 M-SCSPRT 规 则 ,而且 具有 较 短 的 测 
验 长 度 ; (3)6 种 终止 规则 在 PCC 和 ATL 上 对 具有 不 


i) 
oO 


同 能 力 被 试 的 敏感 度 呈 现 出 一 致 的 变化 规 得 
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Two new termination rules for multidimensional computerized classification testing 


REN He, CHEN Ping 


(Collaborative Innovation Center of Assessment for Basic Education Quality, Beijing Normal University, Beijing 100875, China) 


Abstract 

Computerized classification testing (CCT) is a subset of computerized adaptive testing (CAT), and it aims 
to classify examinees into one of at least two possible categories that denote results such as pass/fail or 
non-mastery/partial mastery/mastery. Therefore, CCTs focus on increasing the accuracy of classification which 
is different from CATs designed for precise measurement. The termination rule is one of the key components of 
CCT. However, as pointed out by Nydick (2013), most CCTs (i.e., UCCTs) were designed under unidimensional 
item response theory (IRT), in which the unidimensionality assumption is easily violated in practice. Thus, 
researchers then began to construct multidimensional CCT termination rules (i.e., MCCT) based on 
multidimensional IRT. To date, however, these rules still have some deficiencies in terms of classification 
accuracy or test efficiency. 

Most current studies on termination rules of MCCT are based on termination rules of UCCT. In UCCTs, 
termination rules require setting a cut point, 0, of the latent trait to calculate the statistics; and when they are 
extended from UCCT to MCCT, the cut point will become a classification bound curve or even a surface (i.e., 
g(#)=0). At this time, a question is how to convert the curve or surface into 4. To this end, the projected 
sequential probability ratio test (P-SPRT), constrained SPRT (C-SPRT; Nydick, 2013), and multidimensional 
generalized likelihood ratio (M-GLR) were respectively proposed to solve the problem in different ways. Among 
them, P-SPRT and C-SPRT choose specific points on g(@) as the approximate cut point, ô, , by projecting into 
Euclidean space or constraining on g(0) respectively; as for M-GLR, because the generalized likelihood ratio 
statistic can be calculated without a cut point, it can be directly employed in MCCT. To overcome the limitation 
that P-SPRT may lead to unstable results at the beginning of the test, this study proposed the Mahalanobis 
distance-based SPRT (Mahalanobis-SPRT). 

In addition, stochastic curtailment is a technique for shortening the test length by predicting whether the 
classification of participants will change as the test continues. This article also combined M-GLR with the 
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stochastic curtailment and proposed M-GLR with stochastic curtailment (M-SCGLR). 

A full-scale simulation study was conducted to (1) compare both the Mahalanobis-SPRT and M-SCGLR 
with the P-SPRT, C-SPRT, M-GLR, and multidimensional stochastically curtailed SPRT (M-SCSPRT) under 
varying conditions; (2) compare the classification performance of the above six termination rules for participants 
with specific abilities to explore whether there is a significant difference in the sensitivity of various rules to 
classify specific participants. To achieve the first research objective, three levels of correlation between 
dimensions (p=0, 0.5, and 0.8), two item bank structures (within-item multidimensionality and between-item 
multidimensionality), and two kinds of classification boundary (compensatory boundary and non-compensatory 


boundary) were considered; to achieve the second objective, 36 specific ability points (@,0,) were generated 
where 6,,0, e {-0.5,—0.3,—0.1,0.1,0.3,0.5} . The results showed that: (1) when the compensatory classification 


function was used, the Mahalanobis-SPRT led to higher classification accuracy and similar test length to the 
rules without stochastic curtailment; (2) under almost all conditions, the M-SCGLR not only possessed higher 
precision but also maintained the short test length, compared to M-SCSPRT that also uses stochastic curtailment; 
(3) the six termination rules showed a consistent change in the sensitivity of the precision and test length to 
specific participants. 

To sum up, two new MCCT termination rules (Mahalanobis-SPRT and M-SCGLR) are put forward in this 
article. Although the simulation results are very promising, several research directions merit further 
investigation, such as the development of MCCT termination rules for more than two categories, and the 
construction of MCCT termination rules by incorporating process data like the response time. 

Key words computerized classification testing, termination rule, multidimensional item response theory, Mahalanobis 
distance, stochastic curtailment 
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附录 1 M-SCGLR 中 P(D, = Dy|C;) 的 推导 

将 被 试 作答 至 最 大 测验 长 度 了 时 ， 对 被 试 的 分 类 判断 与 当前 (作答 六 道 题 ) 一 致 的 概率 记 为 
P(D, = Djy|Cy) 。 具 体 地 说 ， 如 果 目 前 的 临时 判断 为 被 试 属 于 “未 掌握 ”类 别 , 则 被 试 作答 至 最 大 测验 长 度 时 
仍 被 判断 为 "未 掌握 ”的 概率 为 PO; = nC); 如 果 目 前 的 临时 判断 为 被 试 属于 “掌握 ”类 别 ， 则 被 试 作答 至 
最 大 测验 长 度 时 仍 被 判断 为 “掌握 ”的 概率 为 P(Dj = mlCj,)。 不 失 一 般 性 , 我 们 对 PO, =nlCy) 的 计算 过 程 
进行 推导 。 

根据 Fineklman (2008) 的 研究 ,可 以 使 用 Siegmund (1985) 所 描述 的 技巧 。 PLD) =nlCy) 实际 上 即 为 
PCy 三 G61Cy)。 利 用 对 数 可 加 性 以 及 中 心 极限 定理 , 使 用 给 定 Cy 下 条 件 分 布 的 渐 近 正 态 性 ,可 以 得 到 


C, —E,(C.,|C... 
P(D, =n|Cy) = ® Co -Eo (Cully) | (A1) 
Varg (Cy lC) 


IFC 中 本 身 包含 Cy 的 部 分 ,根据 对 数 的 可 加 性 及 条 件 期 望 的 性 质 ， 可 得 到 公式 (AD 中 也 o(CxzlCy) 
的 计算 ， 即 


sup [L(A |Y;;)] yo SUP [LOY] J sup [L(4,|¥;,)] 
By (Cy|Cyr) = Ep | log wp Tao =E, Doe sp ro op sp TOD 
J pe Lo, IY] 
a) lg oe sop (Ga) | (A2) 
类 似 地 ,根据 作答 反应 的 条 件 独 立 性 及 条 件 方差 的 性 质 ,可 得 
sup [L(,|¥;;)] j sup [LA |Y] y sup [L(4|¥;;)] 
Vaty (Ciy|Cyr) = Vaty ap EON » |= Vatg 28 sp OT = eip OTN 
sup [L(0,|Y;)] 
Svali Jog sem (A3) 
Sh sup (LOTFI 


实际 上 , Huebner 和 Fina (2015) 在 单 维 情境 下 已 对 这 一 过 程 进行 推导 。 与 单 维 的 SCGLR FALL, 在 本 文 
考虑 的 MCCT 情境 中 , M-SCGLR 只 是 将 Cj 中 求 极 值 的 集合 由 单 维 的 区 间 变 为 多 维 空间 中 的 区 域 , 因此 其 
推导 过 程 是 一 致 的 。 
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附录 2 各 终止 规则 的 模拟 结果 


附 表 2 图 2 所 对 应 的 模拟 结果 


相关 分 界 曲 线 题库 结构 终止 规则 PCC ATL 
C-SPRT 0.948 52.959 
P-SPRT 0.948 49.541 
题目 内 多 维 Mahalanobis-SPRT 0.950 53.216 
ree Bo AE 
M-GLR 0.924 32.241 
M-SCGLR 0.858 18.849 
补偿 性 M-SCSPRT 0.807 12.649 
zx 
C-SPRT 0.930 61.981 
P-SPRT 0.929 57.835 
题目 间 多 维 Mahalanobis-SPRT 0.930 58.876 
wed H BY 2 AE 
M-GLR 0.904 36.016 
M-SCGLR 0.851 20.848 
M-SCSPRT 0.805 13.504 
p=0 
C-SPRT 0.908 69.070 
P-SPRT 0.915 55.622 
题 日 内 多 维 Mahalanobis-SPRT 0.873 57.369 
eS 2 ae 
M-GLR 0.916 41.331 
M-SCGLR 0.879 26.151 
非 补偿 性 M-SCSPRT 0.829 17.048 
去 性 
C-SPRT 0.931 61.163 
P-SPRT 0.927 58.847 
题 日 间 多 维 Mahalanobis-SPRT 0.909 58.686 
wed H BY 2 AE 
M-GLR 0.919 36.718 
M-SCGLR 0.864 20.974 
M-SCSPRT 0.825 14.012 
C-SPRT 0.949 51.839 
P-SPRT 0.949 46.301 
题目 内 多 维 Mahalanobis-SPRT 0.951 49.922 
ree Bo AE 
M-GLR 0.929 28.306 
M-SCGLR 0.880 16.641 
补偿 性 M-SCSPRT 0.848 12.333 
C-SPRT 0.942 60.648 
P-SPRT 0.943 54.795 
jz 题 日 间 多 维 Mahalanobis-SPRT 0.942 55.901 
p=0. 题目 间 多 维 
M-GLR 0.921 32.052 
M-SCGLR 0.879 20.429 
M-SCSPRT 0.836 13.478 
C-SPRT 0.915 69.277 
P-SPRT 0.918 56.422 
非 补偿 性 题目 内 多 维 Mahalanobis-SPRT 0.890 54.840 
EE ree Bo AE 
M-GLR 0.917 41.205 
M-SCGLR 0.879 25.501 


M-SCSPRT 0.843 16.417 
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续 附 表 
相关 分 界 曲线 题库 结构 终止 规则 PCC ATL 
C-SPRT 0.931 65.105 
P-SPRT 0.931 61.374 
vere pare cepa Mahalanobis-SPRT 0.917 57.084 
p=0.5 非 补偿 性 题目 间 多 维 
M-GLR 0.925 37.549 
M-SCGLR 0.876 21.250 
M-SCSPRT 0.839 13.966 
C-SPRT 0.960 50.987 
P-SPRT 0.957 45.382 
、 Mahalanobis-SPRT 0.961 48.457 
题目 内 多 维 
M-GLR 0.946 27.139 
M-SCGLR 0.896 16.513 
ee M-SCSPRT 0.858 12.313 
补偿 性 
C-SPRT 0.958 58.903 
P-SPRT 0.958 52.540 
are Mahalanobis-SPRT 0.958 53.414 
题目 间 多 维 
M-GLR 0.939 30.312 
M-SCGLR 0.897 19.343 
M-SCSPRT 0.851 13.860 
R 
C-SPRT 0.920 68.485 
P-SPRT 0.928 56.274 
n Mahalanobis-SPRT 0.916 52.433 
题目 内 多 维 
M-GLR 0.917 39.755 
M-SCGLR 0.902 25.742 
Sp M-SCSPRT 0.856 16.835 
非 补 偿 性 
C-SPRT 0.944 65.928 
P-SPRT 0.941 61.900 
o F Mahalanobis-SPRT 0.933 55.232 
题目 间 多 维 
M-GLR 0.935 35.541 
M-SCGLR 0.898 20.446 
M-SCSPRT 0.857 14.111 


